A. Analisis 1. Distribusi Harga (Gambar 1 kiri atas) Mayoritas listing memiliki harga <100 EUR/malam. Harga sangat right-skewed, menandakan ada banyak listing murah dan sedikit yang mahal. 2. Jenis Kamar (kanan atas) Dominasi Private Room dan Entire home/apt. 3. Jumlah Review (kiri bawah) Mayoritas listing punya review sedikit menunjukkan bahwa banyak listing baru/kurang populer. Korelasi terhadap harga cenderung lemah. 4. Rata-rata Harga per Area (kanan bawah) Area mahal: Charlottenburg-Wilmersdorf, Tempelhof-Schöneberg, Mitte Area murah: Neukölln, Reinickendorf, Treptow-Köpenick 5. Harga vs Jumlah Review (scatterplot) Tidak ada hubungan kuat antara harga tinggi dengan banyak review ada hipotesa lebih penting (lokasi, ketersediaan, dll). Harga rendah cenderung membuat banyak user melakukan review 6. Peta Sebaran Harga Airbnb Harga tinggi tersebar di tengah kota. Terdapat konsentrasi listing dengan harga murah di pinggiran. B. Pengolahan data 1. Model Regresi – Prediksi Harga Model MAE RMSE R² Analisis Random Forest 18.82 33.02 0.36 Baik, tapi masih underfit. Gradient Boosting 18.71 33.48 0.34 Mirip RF, perbedaan kecil. Insight: R² < 0.4 → model belum menangkap cukup banyak variasi harga. Harga yang sangat skewed ditambah fitur terbatas membuat model kesulitan belajar. C. Rekomendasi & Next Steps 1. Model & Data: Gunakan model XGBoost atau CatBoost untuk regresi. Tambahkan data eksternal: kalender musim/liburan, lokasi wisata. Gunakan teknik feature selection untuk kurangi noise. 2. Business Insight: Platform bisa memberi rekomendasi harga otomatis bagi host baru berdasarkan area dan fitur. Identifikasi listing dengan potensi kenaikan harga berdasarkan lokasi dan demand historis. Lokasi dengan harga murah tapi demand tinggi bisa jadi target promosi. Kesimpulan Singkat: Telah melakukan eksplorasi data Airbnb dan membangun dua model machine learning. Model regresi memiliki akurasi MAE 18 EUR dan R2 0.35. Model klasifikasi berhasil mengenali tiga kategori harga (Murah, Sedang, dan Mahal) dengan akurasi sekitar 70%. Setelah diterapkan teknik balancing menggunakan SMOTE, performa model meningkat secara signifikan khususnya dalam mengenali kategori “Mahal” yang sebelumnya gagal dikenali. Hasil visualisasi memperkuat insight bahwa harga sangat dipengaruhi oleh lokasi geografis dan tipe kamar. Namun, jumlah review tidak berbanding lurus dengan harga, justru dengan harga lebih murah cenderung mendapatkan lebih banyak ulasan hipotesa karena lebih banyak disewa oleh wisatawan dengan anggaran terbatas (untuk hal ini perlu diihat distribusi reviewnya negatif atau positif) jika saya hitung nilai korelasi Pearson antara price dan number_of_reviews, hasilnya kemungkinan negatif dan kecil (mungkin sekitar -0.3). oleh karena itu tidak bisa dibilang hubungan sebab-akibat (bisa jadi listing murah lebih sering disewa karena affordable, lalu otomatis dapat lebih banyak review atau karena harga murah mendapakan fasiliast yang kurang baik).